Actualizaciones después de probar documentos#100
Conversation
Revisão — problemas encontrados🔴 Bug crítico —
|
🔴 Bug adicional —
|
|
| Elemento | Status | Motivo |
|---|---|---|
| Abstract (EN/PT) | ✅ presente | |
<article-title> |
❌ ausente | |
<title> das seções |
❌ vazio | |
<ref-list> |
❌ vazia (40+ referências no DOCX) | |
<contrib-group> |
❌ vazio |
A causa raiz é que o documento usa style='Normal' em praticamente todos os parágrafos — título do artigo, títulos de seção ("Introduction", "Material and Methods", etc.), autores e referências bibliográficas. O documento tem apenas um Heading 1 em todo o texto ("Ethics", parágrafo 152 de 270).
O pipeline não consegue distinguir um título de seção de um parágrafo comum quando ambos têm o mesmo estilo. Isso não é um bug — é uma limitação de documentos que não seguem o template esperado pela ferramenta.
Sugestão: documentar explicitamente quais estilos de parágrafo o DOCX deve usar para que o pipeline identifique corretamente título do artigo, seções e referências (ex: Heading 1, Heading 2, References). Isso pode ser comunicado como pré-requisito ao usuário antes do upload.
🔴 Novos problemas identificados —
|
| Parágrafo | Estilo | Seção |
|---|---|---|
| [32] | Heading 1 |
Introduction |
| [45] | Heading 1 |
Material and Methods |
| [50] | Heading 1 |
Results |
| [59] | Heading 1 |
Discussion |
Nenhuma dessas seções — nem seu conteúdo — aparece no XML gerado. O pipeline processou apenas o trecho a partir de "Supplementary Material" (parágrafo [64], style='Normal'), ignorando completamente tudo o que vem antes.
Bug 2 — <p> como filhos diretos de <body> e seções sem conteúdo interno
O XML gerado apresenta dois problemas estruturais relacionados:
- Seções como "Acknowledgments", "Authors' Contribution", "Conflicts of Interest" e "Ethics" aparecem como
<p>diretos dentro de<body>— estrutura inválida em SPS - As
<sec>geradas ("Supplementary Material", "Associate Editor", "Data Availability") contêm apenas o<title>internamente; o conteúdo correspondente ficou como<p>irmão da<sec>em vez de filho:
<body>
<sec>
<title>Supplementary Material</title> <!-- conteúdo deveria estar aqui dentro -->
</sec>
<p>The following online material is available for this article:</p> <!-- mas ficou aqui fora -->
...
</body>O que funcionou corretamente neste documento
<history>com datas de recebimento (22/12/2025) e aceite (21/04/2026) preenchidas corretamente ✅
🔍 Revisão de
|
O que esse PR faz?
Onde a revisão poderia começar?
Por commits
Como este poderia ser testado manualmente?
Levantar el entorno;
Cargar documento;
Algum cenário de contexto que queira dar?
N/A
Screenshots
N/A
Quais são tickets relevantes?
#72
Referências
N/A